Fouille de textes hiérarchisée appliquée à la détection de fautes

نویسندگان

  • Nadine Lucas
  • Bruno Crémilleux
چکیده

This paper presents an original text mining approach based on text segmented units, mixing data mining techniques and text linguistics. First, we describe the text units and their descriptors designed for detecting mistakes in scientific papers in English. These include text organisation, emphasizing the relative positions and the context of stylistic markers. Secondly, the paper explains the text mining methods required for such tasks and provides the techniques to extract rules characterizing classes and emerging patterns techniques. Experiment results show the usefulness of text organisation set as an hypothesis. The paper concludes on the text mining benefits for linguistic tasks. MOTS-CLÉS : fouille de textes, linguistique textuelle, mise en forme matérielle, structure typographique, stylistique, règles d'association, motifs émergents, caractérisation de classes, détection de fautes d'anglais, correction, style.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Détection de mots-clés par approches au grain caractère et au grain mot (Keywords extraction by repeated string analysis) [in French]

RÉSUMÉ Nous présentons dans cet article les méthodes utilisées par l’équipe HULTECH pour sa participation au Défi Fouille de Textes 2012 (Deft 2012). La tâche de cette édition du défi consiste à retrouver dans des articles scientifiques, les mots-clés choisis par les auteurs. Nous nous appuyons sur la détection de chaînes répétées maximales (rst rmax), au grain caractère et au grain mot. La mét...

متن کامل

Fouille de textes pour orienter la construction d'une ressource terminologique

Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d’une ressou...

متن کامل

Une approche de classification non supervisée basée sur la détection de singularités et la corrélation de séries temporelles pour la recherche d'états : application à un bioprocédé fed-batch

Résumé. Nous proposons dans cet article une méthode de clustering qui combine l’analyse dynamique et l’analyse statistique pour caractériser des états. Il s’agit d’une méthode de fouille de données qui travaille sur des ensembles de séries temporelles pour détecter des états; ces états représentent les informations les plus significatives du système. L’objectif de cette méthode non supervisée e...

متن کامل

Veille technologique assistée par la fouille de textes

Résumé. Le domaine de la veille technologique vise à récolter, traiter, et analyser des informations scientifiques et techniques utiles aux acteurs économiques. Dans cet article, nous proposons d’utiliser des techniques de fouille de textes pour automatiser le processus de traitement des données issues de bases de textes scientifiques. Toutefois, la veille introduit une difficulté inhabituelle ...

متن کامل

Named Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]

Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 8  شماره 

صفحات  -

تاریخ انتشار 2004